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WE: 目前 能 源 紧缺 的 国际 背景 下 ， 核 能 发 展 为 重要 清洁 能 源 ， 质 子 加 速 器 成 为 处 理 核 废 
料 的 重要 设备 。 在 加 速 器 束 流 轨道 校正 过 程 中 ， 需 要 束 流 轨道 参数 辅助 计算 。 神 经 网 络 目 
前 应 用 在 工业 界 各 个 领域 ， 可 以 实现 准确 率 高 的 数据 拟 合 预测 。 因 此 ， 提 出 了 一 种 基于 边 
缘 智 能 计算 节点 的 直线 加 速 器 束 流 轨 道 参 数 预测 技术 。 该 方法 通过 BPNN 对 过 往 数 据 学 习 ， 
生成 模型 部 署 到 边缘 计算 节点 加 速 预 测 BPM 位 置 参数 ， 可 以 使 用 边缘 计算 节点 加 速 校正 束 
流 位 置 。 实 验 结果 表明 ，FPGA 硬件 加 速 器 作为 边缘 加 速 节 点 仿真 推理 速度 达到 55us， 能 
效 比 相 比 较 GPU 和 CPU 分 别 是 其 23.13 倍 倍 和 553.15 倍 左右 ， 预 测 结 果 误 差 平 均 0.5%, 
时 延 和 精度 达到 预期 目标 。 
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为 了 解决 化 石 能 源 枯竭 和 核 废料 处 置 的 问题 ， 加 速 器 次 临界 反应 堆 系 统 ADS 


(Accelerator Driven Sub-critical System) 被 提出 "。 


CiADS (China initiative Accelerator 
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六 用 中 ， 粒 子 加 速 器 系统 中 存在 多 种 因素 导致 轨道 畸变 ， 影 响 束 流质 量 和 稳定 性 ， 甚 至 引 
发 故障 ， 所 以 束 流 轨 道 校正 在 加 速 器 运行 中 至 关 重 要 *“。 未 来 目标 实现 自 适应 补偿 的 束 流 
轨道 校正 系统 ， 其 中 束 流 轨道 参数 对 校正 束 流 轨道 提供 数据 基础 ， 需 要 设计 一 种 实时 性 高 
精度 高 并 且 可 以 和 自 适 应 补偿 系统 结合 使 用 的 束 流 位 置 预测 系统 ” 
本 文 提出 了 一 种 基于 边缘 智能 计算 技术 的 轨道 数据 预测 方法 ， 快 速 预测 BPM(Beam 


Position Monitor) 位 置 参数 ， 为 未 来 实现 
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Programmable Gate Array) 的 并 行 计 算 能 力 和 硬件 优化 技术 加 速 边 缘 节点 ， 实 现 高 速 、 低 功 
耗 、 低 成 本 的 束 流 轨道 数据 预测 ”。 该 方法 结合 了 神经 网 络 、 边 缘 智 能 计算 的 优势 ， 是 一 
种 有 效 的 束 流 轨道 数据 预测 方法 。 
1. 相关 工作 

1.1 加 速 器 束 流 轨道 参数 预测 现状 

目前 国内 外 有 多 个 机 构 和 团队 从 事 粒 子 加 速 器 束 流 轨道 参数 预测 方面 的 研究 工作 ， 如 
中 国 科 学 院 近代 物理 研究 所 、 欧 洲 核子 研究 中 心 CERN 等 。 粒 子 加 速 器 的 性 能 和 效率 取决 
于 柬 流 在 加 速 过 程 中 的 动力 学 行为 ， 而 束 流动 力学 又 受到 多 种 因素 的 影响 ， 如 空间 电荷 效 
应 、 阻 尼 效 应 、 集 体 效 应 、 非 线性 效应 等 。 已 经 提出 的 预测 束 流 轨道 参数 的 方法 有 多 种 ， 
如 理论 模型 法 、 数 值 模拟 法 、 机 器 学 习 法 等 。 
理论 模型 法 最 早 可 以 追溯 到 牛顿 的 经 典 力学 和 麦克 斯 书 的 电磁 理论 ， 它 们 都 是 用 数学 
方程 来 描述 物理 现象 的 典范 。 其 优点 是 既 能 反映 内 部 规律 ， 也 能 分 析 两 个 因素 的 相关 关系 ， 
精度 相对 较 高 ， 适 用 于 短 、 中 、 长 期 的 预测 。 缺 点 是 方程 的 建立 需要 做 出 一 些 假 设 条 件 ， 
不 同 的 假设 会 得 到 不 同 的 方程 ， 而 且 方 程 的 解 比较 难得 到 。 

数值 模拟 法 是 随 着 计算 机 技术 的 发 展 而 兴起 的 ， 它 可 以 对 复杂 和 非 线性 的 问题 进行 数 
值 求 解 。 其 优点 是 可 以 处 理 复 杂 和 非 线 性 的 问题 ， 可 以 考虑 多 种 影响 因素 ， 精 度 较 高 。 缺 
点 是 需要 大 量 的 计算 资源 和 时 间 ， 对 计算 机 性 能 要 求 较 高 。 

机 器 学 习 法 是 近年 来 受到 广泛 关注 和 应 用 的 一 种 人 工 智能 技术 ， 它 可 以 从 数据 中 学 习 
规律 和 知识 ， 并 进行 预测 和 决策 。 这 种 方法 是 利用 人 工 智能 技术 对 历史 数据 进行 分 析 和 学 
习 ， 建 立 预测 模型 *。 优 点 是 不 需要 建立 数学 模型 ， 可 以 处 理 非 线性 和 高 维度 的 问题 ， 具 
有 强大 的 拟 合 能 力 和 自 适应 能 力 。 缺 点 是 不 能 反映 事物 的 内 在 联系 和 原理 ， 需 要 大 量 且 质 
量 好 的 数据 进行 训练 和 验证 。 
2. 2 深度 学 习 加 速 技术 现状 

深度 学 习 在 多 个 领域 上 表现 出 优 于 传统 算法 的 效果 ， 但 是 其 参数 体 量 大 ， 若 想 将 其 应 
到 边缘 设备 中 去 ， 就 要 对 深度 学 习 模型 进行 压缩 与 加 速 ”。 

神经 网 络 剪 枝 可 以 在 保持 精度 的 同时 显著 压缩 模型 ， 如 Song Han 等 人 实现 了 35-49 fi 
的 压缩 率 ， 其 中 剪 枝 贡献 了 10 倍 以 上 ”。 深 鉴 科 技 将 其 应 用 于 FPGA 上 的 语音 识别 ”。Fuj 
让 等 人 采用 神经 元 修剪 ， 将 VGG-11 网 络 层 神经 元 减少 89.3%， 准 确 性 仍 达 99%。 权 重 参数 
减少 后 ，FPGA 上 的 片上 存储 器 可 以 高 速 访问 权重 存储 器 ”。 
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了 量化 方法 , 量化 加 速效 果 取 决 于 硬件 平台 和 推理 库 ”。Liang S A SEH T Ht 


70 倍 ， 但 精度 损失 大 "”。Kuan Wang 等 人 提出 


在 FPGA 上 比 CPU 和 GPU 分 别 快 705 ff 
了 硬件 感知 自动 量化 ， 利 


等 人 总 结 有 数据 量化 、 快 速 和 


型 量化 可 以 将 全 精度 数 映射 到 有 限 整 数 空间 ， 降 低 计算 复杂 度 。Nagel 等 人 系统 介绍 


数 ， 降 低 数据 存储 空间 并 且 加 快 推 理 速 度 。 
2.3 BP 神经 网 络 介绍 


BPNN(Back propagation neural network) 是 一 种 基于 误差 反问 传播 算法 训练 的 多 层 前 馈 
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经 网 络 ， 


强化 学 习 确 定量 化 策略 ， 有 效 降低 延迟 和 能 耗 "”。Riadh Ayachi 
E 阵 计算 、 频 率 优化 、 优 化 片 内 存储 器 设计 、 数 所 


环 展开 等 优化 方法 ”。 本 文中 使 用 其 中 的 数据 量化 算法 ， 将 神经 网 络 量化 为 低位 宽 的 定点 


路 径 以 及 循 


它 能 够 通过 调整 网 络 的 权 值 和 闵 值 ， 最 小 化 实际 输出 与 预计 输出 之 间 的 误差 。 其 


具有 优良 的 非 线性 映射 能 力 和 灵活 的 网 络 结构 ， 应 ) 


结构 如 图 
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ReLU 是 


ReLU 函数 在 训练 中 收敛 较 快 ， 并 且 具 有 更 小 的 计算 复杂 度 ， 所 以 在 边缘 节点 部 署 


个 更 简单 易 


1 BPNN 结构 
素 ， 使 神经 网 络 可 以 拟 合 数据 。 常 
数 ，ReLU 函数 以 及 Tanh 函数 。Sigmoid 函数 和 双 曲 正切 非 线 性 函数 需要 较 长 的 训练 时 间 ， 


的 激活 函数 ， 如 下 : 


f(x)=max(x,0) 


eLU 更 易 实现 ， 在 HLS 中 ， 可 以 进行 ReLU 函数 优化 。 


3. 系统 架构 及 方法 设计 
我 们 计划 未 来 建立 一 套 基 于 边缘 智能 计算 的 粒子 加 速 器 束 流 校正 


4 层 构成 ， 每 一 层 包含 多 个 神经 元 ， 计 和 


于 函数 拟 合 、 模 式 识别 和 数据 压缩 等 


过 程 分 为 正 向 


的 激活 函数 有 Sigmoid K 
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前 期 的 研究 ， 本 文 基于 边缘 智能 节点 实现 了 MEBT 束 流 轨道 参数 的 预测 系统 ， 图 2 为 BPM 
以 及 磁铁 位 置 关 系 图 。 边 缘 智能 节点 是 指 在 靠近 用 户 或 数据 源 的 网 络 边缘 端的 具有 计算 、 
存储 、 网 络 等 资源 的 设备 ， 其 具有 高 效 性 、 安 全 性 、 可 移植 性 等 优势 。 为 了 提高 束 流 轨道 
参数 预测 的 实时 性 和 精度 ， 使 用 边缘 智能 节点 来 加 速 执行 计算 和 分 析 ” 。 
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图 2 BPM 以 及 磁铁 位 置 关系 图 

FPGA 是 一 种 可 编程 逻辑 器 件 ， 其 可 重 构 的 逻辑 单元 可 以 实现 高 度 并 行 计 算 ， 提 升 边 
缘 计算 节点 的 性 能 和 吞吐 量 ， 并 且 其 支持 多 种 数据 类 型 和 算法 ， 满 足 边缘 计算 的 多 样 化 需 
求 。 此 外 ，FPGA 能 够 利用 其 低 功 耗 和 低 延 迟 的 特性 运行 算法 ， 满 足 边 缘 计算 对 时 效 性 和 

能 效 性 的 要 求 。 

BP 神经 网 络 作 为 一 种 多 层 前 馈 神经 网 络 ， 能 够 通过 反 向 传播 算法 进行 自 适应 学 习 ， 实 
现 复杂 非 线性 函数 的 逼近 。 在 本 文中 ， 我 们 利用 BP 神经 网 络 对 磁铁 强度 与 BPM 位 置 之 间 
的 关系 进行 函数 拟 合 ， 从 而 预测 不 同 磁铁 强度 下 的 BPM 位 置 。BPM 位 置 是 指 粒子 束 在 加 
速 器 中 的 轨道 偏 移 量 ， 它 反映 了 粒子 束 的 质量 和 稳定 性 。 为 了 提高 数据 预测 效率 ， 我 们 将 
BPNN 作为 边缘 节点 算法 部 署 到 FPGA 开发 平台 上 。 而 FPGA 去 实现 神经 网 络 最 关键 的 地 
方 就 是 设 定好 一 种 架构 ， 包 括 数据 的 传输 、 临 时 存储 、 结 果 读 取 等 。 神 经 网 络 的 部 署 不 只 
要 实现 权重 和 激活 值 的 矩阵 运算 以 及 激活 函数 的 输出 ， 还 要 对 FPGA 架构 设计 进行 有 效 优 
化 ， 提 高 实际 应 用 的 实时 性 。 所 以 设计 核心 是 神经 网 络 加速 器 设计 和 硬件 架构 设计 两 方面 。 


训练 数据 神经 网 络 训练 平台 ”边缘 计算 加 速 节点 
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图 3 系统 架构 图 


4、 具 体 算法 设计 
4.1 参数 预测 算法 设计 

BPNN 作为 算法 部 署 到 边缘 计算 节点 ， 网 络 体 量 必 须要 小 ， 并 且 要 防止 输出 过 拟 合 。 
因此 设计 使 用 12 个 神经 元 输入 10 个 神经 元 输出 的 单 隐 层 BPNN， 其 中 隐藏 层 包含 20 个 神 
经 元 。12 个 输入 神经 元 包括 5 个 磁铁 的 参数 值 和 第 一 个 BPM 的 坐标 值 ，10 个 神经 元 输出 
包括 5 BPM 的 坐标 参数 值 。 实 验 中 以 这 些 已 知 量 为 输入 ， 预 测 后 面 BPM 的 位 置 坐标 ， 
这 些 数 据 坐标 可 以 作为 映射 关系 输出 到 自动 化 的 束 流 校正 系统 ， 激 活 层 采用 ReLU 函数 ，B 
PNN 网 络 结构 设计 如 图 4 所 示 。 
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图 4 BPNN 结构 设计 

设计 的 BPNN 包含 前 向 传播 和 反 向 传播 部 分 ， 神 经 网 络 训练 首先 根据 输入 进行 正 向 传 
播 即 神经 元 输入 乘 权 重 累 加 偏 置 ， 从 输入 层 到 隐藏 层 需要 进行 240 次 累加 乘法 ， 从 隐藏 层 
到 输出 层 需 要 进行 200 次 累加 乘法 。 反 向 传播 使 用 梯度 下 降 法 ， 根 据 前 向 传播 的 各 层 输出 
结果 计算 loss 函数 ， 然 后 使 用 梯度 下 降 进 行 反 向 传播 调 优 ， 进 而 降低 loss 使 得 数据 拟 合 。 

实验 的 数据 集 是 基于 Trace Win 束 流动 力学 软件 产生 的 模拟 数据 ， 经 过 统计 学 处 理 之 后 
的 数据 作为 训练 集 以 及 验证 集 ， 其 确定 性 因素 是 MEBT 的 lattice， 如 Q 铁 ， 非 确定 性 因素 
是 校正 磁铁 的 强度 ， 其 中 影响 输出 结果 但 是 不 可 测 的 因素 是 真实 加 速 器 和 模拟 加 速 器 的 误 
差 。 其 BPM 数据 集散 点 图 如 图 5 所 示 ， 其 中 每 个 子 图 的 横 纵 坐标 都 分 别 代表 其 BPM 的 坐 
标 轴 数 据 。Magnet 做 铁 电流 强度 参数 数据 散 点 图 如 图 6 所 示 ， 其 中 X,Y 轴 分 别 代表 其 2 个 


方向 的 磁铁 电流 强度 。 


图 5 BPM 训练 数据 散 点 图 
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图 6 Magnet 磁铁 强度 参数 数据 散 点 图 
训练 基于 Pytorch 平台， 使 用 随机 分 配 的 5000 组 训练 集 进行 3000 轮训 练 ，BatchSize 设 
置 为 64， 对 测试 集 和 验证 集 进行 测试 ， 验 证 集 误差 在 0.5% 左右 。 神 经 网 络 训练 和 测试 的 
损失 值 如 图 7 所 示 ， 其 loss 基本 收敛 在 XX 轴 附 近 。 
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图 7 训练 和 测试 损失 值 
4.2 基于 FPGA 的 并 行 加 速算 法 设计 、 实 现 
4.2.1 硬件 系统 架构 设计 


本 文 介绍 了 一 种 基于 FPGA 的 神经 网 络 加 速 器 设计 ， 利 用 ZYNQ SOC 平台 上 PS (Proc 


essing System) 和 PL (Programmable Logic) 之 间 的 高 效 数据 交互 能 力 。 神 经 网 络 加 速 器 是 


一 个 自 定义 的 IP. CIntellectual Property) 核 ， 它 可 以 加 速 全 连接 层 的 前 向 推 


E 理 计算 ， 并 输出 


预测 结果 。PS 端 通过 AXLlite 接口 向 AXI DMA 发 送 控制 指令 。PL 端 通过 AXI SmartConne 


ct 调度 数据 流 进行 交互 ， 使 用 AXI interconnect 进行 控制 流 的 调度 ，DMA 


的 MM2S 和 S2M 


M 接口 分 别 接收 数据 和 发 送 处 理 好 的 数据 ， 完 成 数据 流 以 及 控制 流 的 流通 ， 形 成 闭环 。 图 


8 是 本 设计 的 硬件 系统 框图 。 


DDR3 S AXI HPO AXI 
Memory Smartconnec 
ol t 


Contr 


ARM 


一 一 一 控制 流 
— — 数据 流 


MM 


Cortex-a9 AXI DMA 


AXI 
Interconnec 
t 


8 硬件 系统 框图 


4.2.2 定点 数量 化 算法 


的 鲁 棒 性 使 量化 处 到 


量化 是 指 用 较 低 位 宽 表 示 32 位 浮 点 型 参数 ， 减 少 推理 


时 间 和 参数 存储 空间 。 神 经 网 络 
LE 参 数 后 仍 能 保持 精度 。 和 矩阵 的 浮 点 数 乘 累 加 运算 可 以 通过 量化 数据 的 


乘法 加 法 和 移 位 操作 来 代替 ,显著 降低 浮 点 数 运 算 对 DSP (Digital Signal Processing) 资源 的 


消耗 。 量 化 主要 分 为 训练 后 量化 (Post-Training Quantization) 和 量化 感知 训练 (Quantization Aw 


are Training)。 训 练 后 量化 不 需要 和 


新 训练 或 标记 数据 ， 是 一 种 轻 量 级 的 量化 方法 。 在 大 多 


数 情况 下 ， 训 练 后 量化 足以 实现 接近 浮 点 精度 的 8 位 量化 。 量 化 感知 训练 需要 对 标记 训练 


数据 进行 微调 和 访问 ， 但 能 够 实现 较 低 精度 损失 的 低 比特 上 


gh. 由 于 设计 部 署 在 FPGA ^F 


台 上 ， 定 点 数量 化 方法 更 适合 部 署 ，FPGA 对 于 定点 数 运算 有 着 更 高 效 的 加 速效 果 。 
定点 数量 化 就 是 将 数字 表示 为 整数 和 小 数 的 组 合 ， 首 先 确 定 定点 数 表示 的 范围 和 精度 ， 
定点 数 的 表示 范围 由 位 宽 决 定 ， 精 度 则 由 小 数 点 位 置 决定 。 选 定 合 适 的 位 宽 和 人 小数点 位 置 ， 


可 以 在 同时 满足 精度 和 范 


围 的 前 提 下 尽 可 能 地 减 小 所 需 资源 。 根 据 所 选 定点 数 的 位 宽 和 人 小 


数 点 位 置 ， 定 义 所 需 的 数据 类 型 和 数据 宽度 。 最 后 根据 所 选 定 点 数 的 位 宽 和 小 数 点 位 置 ， 
将 浮 点 数 转 换 为 对 应 的 定点 数 表示 。 


在 数字 信号 处 到 


和 机 器 学 习 等 领域 中 ， 定 点 量化 算法 被 广泛 应 月 


日 于 将 高 精度 参数 转换 


为 低 精度 参数 ， 以 便于 在 嵌入 式 系统 中 进行 高 速 计算 时 ， 解 决 高 精度 计算 时 精度 不 足 的 问 
题 。 定 点 量化 算法 可 以 通过 不 同 的 取 整 函数 来 将 浮 点 数 转换 为 定点 数 。 向 下 取 整 会 导致 精 
度 损失 ， 而 向 上 取 整 则 可 能 会 导致 溢出 。 因 此 ， 定 点 量化 算法 需要 根据 应 用 场景 和 需求 选 
择 合适 的 取 整 方式 和 量化 位 数 。 


4. 2. 3 神经 网 络 加 速算 法 


BPNN 作为 全 


如 图 


连接 神经 网 络 ， 其 计算 本 质 就 是 权重 
乘法 的 优化 是 设计 的 核心 。 


和 矩阵 乘法 累加 全 


ij 置 ， 所 以 对 于 矩阵 


本 文采 用 流水 线 和 循环 展开 的 优化 方法 ， 


7 所 示 ， 可 以 看 到 其 中 主要 有 5 个 循环 ， 有 两 个 矩阵 乘 计算 并 且 昧 力 


应 该 是 A 的 每 一 行 的 元 素 乘 刀 的 每 一 列 的 相应 元 素 的 登 加 。 外 


循环 是 进行 A 的 第 i 行 元 素 与 B 的 第 7 列 元 素 的 乘积 累加 。 


可 以 计算 出 


AREE 


rH 


iR. 


D 


乘法 算法 伪 代 码 
E 阵 乘法 


第 i 行 的 所 有 元 素 ， 最 外 层 的 循环 是 对 行 的 遍历 。 和 矩阵 所 


n-l 


c; = M aby 0Si,j<n-1 
k=0 


BRE HEA HY iz & 


其 外 层 是 对 


逻辑 


最 内 层 的 
JEREB 的 列 遍历 ， 
量 乘法 被 定义 成 : 


1: for i = 0 to n — 1 do 

2: for j = 0 ton — 1 do 

3: output1 = bias1[i] + weight [i][j] * in[j]; 

4: end for 

5: end for 

5: Relu(output1); 

6: for i = 0 to n — 1 do 

rs for j = 0 to n — 1 do 

8: output = bias2[i] + weight2[i][j] * output1[j]; 

9: end for 

10: end for 

图 9 矩阵 乘法 算法 伪 代 码 
和 矩阵 运算 是 计算 资源 的 主要 消耗 者 , 对 于 设计 的 BPNN 来 说 ， 主 要 加 速 部 署 的 就 是 前 向 

传播 部 分 ， 前 向 传播 就 是 由 累加 乘 组 成 的 ， 输 入 和 输出 的 数据 和 设计 的 神经 网 络 相 同 。 根 
据 前 面 BPNN 的 结构 设计 来 看 ， 硬 件 加 速 器 应 该 包含 从 输入 层 到 隐藏 层 的 240 次 累加 乘 和 从 
隐藏 层 到 输出 层 的 200 次 累加 乘 。 为 了 提高 循环 并 行 性 能 ， 我 们 使 用 循环 展开 和 流水 线 化 
技术 。 循 环 展 开 时 将 循环 体 复制 多 份 ， 并 在 硬件 上 同时 执行 一 组 和 迭代。 其 参数 指定 了 每 次 
在 硬件 上 并 行 执 行 的 数目 。 循 环 展 开 不 仅 可 以 解决 利用 率 低下 的 问题 ， 还 可 以 帮助 优化 数 
据 路 径 和 片上 存储 器 设计 。FPGA 流水 线 化 是 指 将 一 个 复杂 的 计算 任务 分 解 为 若干 个 子 任务 ， 
并 按照 顺序 组 装 成 一 个 流水 线 处 理 的 过 程 。FPGA 部 署 神经 网 络 的 流水 线 化 是 利用 FPGA 上 
的 可 重 构 资源 进行 了 设计 和 优化 ， 使 用 DSP 进行 矩阵 运算 ,使 用 LUT 进行 逻辑 运算 和 查找 


表 操 作 。 


整体 硬件 加 速 器 内 部 架构 如 图 


10 所 示 。 
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图 10 硬件 加 速 器 内 部 架构 


5、 测 试 及 讨论 
本 设计 应 用 了 BPNN 神经 网 络 技术 对 于 过 往 的 实验 数据 进行 拟 合 ， 得 到 期 望 的 神经 网 
络 模型 ， 使 用 定点 量化 技术 对 模型 参数 量化 ， 根 据 便 件 整体 架构 以 及 其 硬件 加 速 器 的 设计 ， 
将 FPGA 作为 边缘 加 速 节 点 部 署 BPNN 进行 加 速 。 测 试 包括 验证 边缘 加 速 节点 的 硬件 加 速 
效果 、 量 化 性 能 、 硬 件 性 能 指标 以 及 硬件 系统 架构 的 可 行 性 。 
5. 1 软 硬 件 实验 环境 

本 文 测试 部 署 边缘 计算 节点 的 神经 网 络 模型 为 BPNN， 使 用 Pytorch 训练 平台 对 神经 网 
络 进行 7000 轮训 练 ， 将 得 到 的 神经 网 络 权 重 以 及 偏 置 文件 保存 下 来 作为 后 续 测试 的 材料 。 


使 用 的 实验 开发 板 是 ZYBO-Z7, 主 频 为 120MHz; CPU 对 照 组 采用 12 vCPU Intel(R) Xeon(R) 


Platinum 8255C CPU @ 2.50GHz 处 理 器 ， 主 频 2.5GHz， 处 理 器 数量 为 24 核 48 线程 ，Linu 


x HERA; GPU 对 照 组 采用 Nvidia GTX 3090 芯片 ， 拥 有 10496 个 CUDA 核心 ， 核 心 频 
率 1400MHz， 配 有 24GB 的 显存 ，Linux 操作 系统 ， 在 ZYBO-Z7 开发 板 上 对 本 设计 进行 了 


实验 ， 硬 件 加 速 器 的 资源 利用 率 如 表 2 所 示 。 
表 2 硬件 加 速 器 的 资源 利用 率 


Ky FF LUT DSP48E BRAM_18K 
资源 总 数 35200 17600 80 120 
使 用 数 8039 15808 64 0 
使 用 率 22% 89% 80% 0% 


从 表 2 看 到 加 速 器 BRAM 的 资源 利用 率 为 0， 是 因为 神经 网 络 的 模型 体 量 比较 小 ， 参 
数 经 过 优化 放 在 LUT 中 实现 。 本 文 使 用 Vivado 2018.3 对 设计 完成 综合 实现 。 
5.2 ”硬件 加 速 器 加 速效 果 测 试 

本 设计 主要 使 用 了 和 矩阵 计算 加 速 、 循 环流 水 线 以 及 循环 展开 技术 对 神经 网 络 进行 硬件 
加 速 ， 为 了 得 到 实际 加 速效 果 ， 需 要 对 使 用 上 述 优化 技术 加 速 前 后 的 资源 占用 以 及 时 钟 周 


期 进行 测试 对 比 ， 加 速 前 指 未 使 用 流水 线 化 、 循 环 展 开 等 优化 技术 的 资源 占用 ， 加 速 后 指 
使 用 了 优化 技术 的 资源 占用 。 如 表 1 所 示 ， 对 比 硬件 加 速 器 加 速 前 后 的 资源 占用 率 ， 我 们 
发 现 DSP48E 和 LUT 的 占用 率 明 显 上 升 。 符 合 硬件 加 速 器 用 资源 换取 运行 速度 的 设计 理念 ， 
从 加 速 前 后 时 钟 周期 可 以 看 出 ， 硬 件 加 速 器 对 算法 加 速 了 18.05 倍 左 右 ， 硬 件 加 速 器 仿真 前 
向 推理 时 间 为 2. 9us。 


表 1 硬件 加 速 器 优化 前 后 资源 对 比 


Ky 时 钟 周 期 FF LUT DSP48E BRAM_18K 
加 速 前 5236 3% 10% 6% 1% 
加 速 后 290 22% 89% 80% 0% 


5.3 量化 性 能 测试 
量化 参数 之 前 需要 测试 不 同位 数 定点 数量 化 算法 的 误差 ， 确 定量 化 位 数 之 后 将 浮 点 值 
转换 成 定点 数 并 且 对 其 进行 round 操作 。 分 别 进行 8 位 量化 、16 位 量化 以 及 32 位 量化 的 实 
验 ， 将 神经 网 络 的 权重 参数 通过 HLS 工具 里 的 AP. fixed 函数 分 别 量化 成 8 位 、16 位 以 及 3 
2 位 ， 将 这 些 不 同位 数 的 数据 送 入 神经 网 络 加 速 器 中 得 到 预测 结果 ， 对 预测 结果 和 实际 值 
进行 计算 误差 ， 得 到 不 同位 数量 化 的 误差 率 ， 从 而 得 到 不 同 量化 位 数 对 输出 结果 的 精度 影 
响 。 实 验 结果 如 图 9 所 示 ， 图 中 各 点 分 别 代表 对 应 BPM 位 置 的 量化 后 误差 率 的 数值 ，3 条 
折线 分 别 代表 3 种 量化 位 数 的 精度 。 由 图 11 可 见 16 位 定点 数量 化 的 误差 很 小 ， 与 32 位 定 
点 量化 精度 基本 一 致 ， 8 位 量化 的 精度 损失 明显 ， 精 度 损失 最 大 的 点 位 已 经 超过 了 40%, 
所 以 本 设计 采用 16 位 的 定点 量化 方法 。8 位 定点 量化 的 误差 较 大 原因 是 输入 值 的 范围 已 经 
超过 了 8 位 定点 数 的 表示 范围 ， 造 成 误差 侦 移 严重 。 
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图 11 量化 位 数 误差 对 比 


5. 4 硬件 性 能 评估 
为 了 测试 本 设计 的 性 能 指标 ， 需 要 对 照 组 进行 功 耗 测试 、 有 效 算 力 和 能 效 比 的 性 能 评 


估 。 选 取 目 前 主流 的 硬件 加 速 器 作为 对 照 组 ， 包 括 GPU 和 CPU 设备 。 使 用 包含 CPU 和 G 


PU 的 Linux 服务 器 进行 测试 ， 测 试 数 据 是 TraceWin 输出 的 经 过 归 一 化 及 统计 学 处 理 的 100 
00 组 数据 。 从 验证 集中 随机 抽取 10 组 ， 分 别 送 入 ZYBO-Z7、GPU、CPU 计算 平台 ， 对 于 


GPU 和 CPU 平台 使 用 profile 工具 进行 前 向 推理 


E 分 析 ， 可 以 得 到 满载 情况 下 其 前 向 推理 的 时 


延 ， 对 每 组 数据 在 不 同 计算 平台 上 的 处 理 时 间 、 网 络 推理 时 间 和 运算 量 及 不 同 平台 的 计算 


功 耗 进 行 测试 ， 测 试 结 果 如 表 3 所 示 ，FPGA 
BP 神经 网 络 在 该 硬件 加 速 器 推理 的 平均 时 间 约 为 SSus， 计 入 


于 发 板 功 耗 测试 如 图 12 所 示 。 从 表 3 可 看 出 ， 


速率 分 别 是 GPU 与 CPU 的 0. 


36 倍 、7.618 倍 ， 说 明 本 文 设计 的 边缘 智能 节点 在 FPGA 上 加 速效 果 明 显 ， 加 速效 果 介 于 G 


PU 和 CPU 之 间 。 该 节点 实际 功 耗 仅 为 1.572W， 远 低 于 GPU 与 CPU, i ATR FRAT 


移动 设备 。BPNN 网 络 的 运算 量 为 440 FLOPs= 0.00044MFLOPs， 故 该 加 速 器 每 秒 的 有 效 算 


fin 


FAA 0.00044/0.000055= 8MOPS， 能 效 比 为 8/1.572= 5.09 MOPS/W 。 该 加 速 器 的 能 效 比 是 G 


PU 的 23.13 倍 ，CPU 的 553.15 倍 ， 可 以 看 出 本 文 设计 的 边缘 计算 节点 有 着 优秀 的 性 能 收益 。 


实验 结果 表明 ， 系 统 整体 不 但 拥 


件 加 速 优势 ， 显 著 降 低 运 行 时 延 ， 增 加 算法 实时 性 。 


Ka 


图 12 开发 板 功 耗 测试 
表 3 加 速 平台 性 能 测试 对 比 


有 神经 网 络 的 数据 拟 合 能 力 ， 


| DD Dynamic: 1453W (92%) 
| [E 
— Clocks: 0.022 W 2 
| [=] 
| Signals: 0.015W (1%) 
[3 Logic: 0011W (1% 
92% — I BRAM: 0.003 W (<1%) 
DSP: 0.004W («19 
B PS7: 1.398 W (94%) 
E Static: 0118W (8% 
ES | 100% | Bj PL Static: 0.118 W (100%) 


还 结合 了 边缘 加 速 节 点 的 硬 


ZYBO-Z7 GPU CPU 
单 组 数据 推理 时 间 /us 55 20 419 
每 秒 有 效 算 力 /MOPS 8 22 1.05 
实际 功 耗 /W 1.572 102 113 
能 效 比 /MOPS/W 5.09 0.22 0.0092 


5. 5 板 级 系统 功能 测试 和 精度 测试 


将 设计 好 的 硬件 加 速 IP 核 导 入 到 Vivado HF 


F 之 后 ， 根 据 硬件 架构 设计 绘制 Block 


Design 设计 图 ， 将 硬件 设计 集成 到 BSP (Board Support Package) 包 中 ， 导 入 SDK 软件 进 
端 控制 代码 编写 。 输 入 数据 后 ， 经 过 AXI 接口 传递 到 硬件 加 速 器 ，FPGA 的 PL 端 数 


行 PS 
据 处 到 


后 ， 通 过 PS 端 控制 并 输出 BPM 位 置 数据 ，ZYBO 开发 板 功能 串口 测试 结果 如 图 13 


所 示 。SDK Terminal 连接 COM4 串口 后 设置 比特 率 为 113200， 在 SDK Terminal 的 输入 窗口 
填写 BPNN 的 输入 数据 ， 点 击 Send 之 后 数据 送 入 开发 板 中 ， 之 后 串口 正常 输出 预测 的 BPM 
位 置 数据 。 实 验 表 明 ， 本 文 设计 的 硬件 架构 可 以 正确 接收 并 处 理 神经 网 络 输 入 数据 ， 验 证 
了 本 系统 架构 设计 的 正确 性 。 


i*; Problems 4) Tasks © Console & SDK Terminal :: E] SDK Log eRe 


= 


Connected to: Serial ( COM4, 115200, 0, 8) 


0.1266,0.2755,1.8975,4.7647,2.5888,3.5410,2.3178,3.9137,3.8727,3.0493, 


0.0995,0.4203,0.079,-0.1027,0.0212,-0.9021,-0.6212,0.0095,0.8106,-0.1578,0.354,-0.4084 Send Clear 


图 13 板 级 串口 测试 结果 

从 验证 集 抽取 的 10 组 数据 输入 边缘 加 速 节 点 中 进行 精度 测试 ， 将 得 到 的 预测 数据 与 原 
始 数 据 对 比 ， 得 到 各 组 预测 结果 和 实际 结果 的 误差 如 图 14 所 示 ，BPM 预测 误差 在 0.5% 左 
右 。 
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到 14 BPM 预测 误差 
6. 结论 及 展望 

本 文 从 提高 计算 速度 和 提高 能 效 比 的 角度 出 发 ， 设 计 了 一 种 以 FPGA 作为 边缘 智能 节 
点 的 加 速 系统 ， 通 过 软 硬 协 同 的 方式 ， 优 化 神经 网 络 前 向 传播 电路 及 降低 了 带宽 ， 以 满足 


束 流 轨道 参数 预测 的 实际 需求 。 神 经 网 络 加 速 嚣 在 计算 性 能 上 达到 SMOPS 的 有 效 算 力 ， 硬 
件 加 速 器 的 计算 功 耗 为 1.572W， 能 效 比 为 5.09MOPS/W， 是 GPU 的 23.13 倍 ， 是 CPU 的 5 
53.15。 从 数据 中 可 以 得 出 ， 作 为 神经 网 络 边 缘 加 速 平台 ，FPGA 加 速 神经 网 络 可 以 取得 很 
好 的 加 速效 果 ， 其 加 速效 果 在 实验 对 比 中 效果 介 于 GPU、 和 CPU 之 间 ， 并 且 明 显 强 于 CP 
U。 在 具有 良好 加 速效 果 的 情况 下 ，FPGA 加 速 器 具有 很 高 的 能 效 比 ， 在 大 规模 部 署 的 情况 
下 更 加 节省 能 源 。 

实验 结果 表明 ， 本 文 提 出 的 硬件 加 速 器 适合 应 用 于 边缘 计算 设备 ， 并 且 在 对 BPM 位 置 
预测 中 预测 值 和 真实 值 平 均 误 差 在 0.5%， 硬 件 加 速 器 仿真 平均 推理 时 延 2.9us，FPGA 边缘 
节点 推理 时 间 平 均 为 55us， 能 够 满足 未 来 实现 的 自 适 应 补偿 在 线束 流 校 正 系 统 的 时 延 要 求 ， 
这 里 FPGA 边缘 节点 推理 时 间 的 大 部 分 时 延 都 浪费 在 了 数据 传输 ， 未 来 目标 设计 更 低 时 延 
的 数据 传输 硬件 架构 ， 以 达到 更 好 的 加 速效 果 。 具 体 而 言 ， 主 要 贡献 为 研究 了 神经 网 络 加 
速 技术 在 粒子 加 速 器 束 流 轨道 数据 预测 中 的 应 用 ， 探 索 了 一 种 基于 边缘 智能 计算 节点 的 直 
线 加 速 器 束 流 轨 道 参数 预测 技术 研究 ， 并 通过 实验 验证 了 其 应 用 的 可 行 性 。 本 设计 的 核心 
是 边缘 加 速 节点 ， 有 具有 很 强 的 移植 性 ， 该 硬件 架构 以 及 边缘 节点 的 加 速算 法 不 仅 可 以 进行 
BPNN 的 前 向 推理 加 速 ， 对 于 其 他 有 高 实时 性 要 求 的 算法 或 者 神经 网 络 也 可 以 很 好 的 加 速 。 
但 本 文 的 研究 工作 是 基于 虚拟 加 速 器 的 数据 进行 的 ， 对 于 真实 的 加 速 器 的 束 流 轨 道 数据 预 
测 方案 ， 需 要 考虑 在 实际 加 速 器 中 更 多 的 影响 因素 ， 在 实际 加 速 器 中 进行 数据 清洗 ， 选 择 
典型 的 数据 进行 学 习 。 在 今后 的 工作 中 ， 我 们 将 对 神经 网 络 模型 及 加 速 方案 进行 改进 ， 未 
来 结合 自 适 应 补偿 的 自动 化 束 流 校 正 系统 应 用 于 真实 的 粒子 加 速 嚣 。 
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Abstracts: In light of the current international energy scarcity, nuclear power has emerged as a crucial source of 
clean energy. Proton accelerators have therefore become a pivotal technology in nuclear waste management. During 
beamline orbit correction processes, precise calculations of beamline orbit parameters are required. Given the 
demonstrated effectiveness of neural networks in a wide variety of industry domains, they offer promising potential 
for high-accuracy data fitting and prediction. Hence, this study proposes a novel direct linear accelerator beamline 
orbit parameter prediction technique based on edge intelligence computing nodes. This technique leverages BPNN 
to learn from historical data and generate a powerful model that can be seamlessly deployed to edge computing 
nodes, thereby accelerating the prediction of BPM location parameters. Furthermore, the proposed approach may be 
complemented by an adaptive compensation system in the future, which, in combination with edge computing nodes, 
could enable automatic beamline position correction, thereby achieving beamline orbit correction. Our experimental 
results demonstrate that FPGA, as an edge acceleration node, can achieve an inference speed of 2.5us, which 
represents a remarkable performance enhancement of approximately 165.6 times compared to CPU and 
approximately 7.9 times compared to GPU. The predicted results exhibit an average error of only 0.5%, and they 
exhibit the desired latency and accuracy characteristics. 
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